久等了，欢迎与 Moonshot AI 共同开启 Loooooooooong LLM 时代

Moonshot AI Moonshot AI 2024-01-14

今天，Moonshot AI 带着首个支持输入 20 万汉字的智能助手产品Kimi Chat 与大家见面了。

据我们所知，这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度，标志着 Moonshot AI 在“长文本”这一重要技术上取得了世界领先水平。

为什么说大模型的“长文本”能力很重要？

因为从技术视角看，参数量决定了大模型支持多复杂的“计算”，而能够接收多少文本输入（即长文本技术）则决定了大模型有多大的“内存”，两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的“内存”，从而使得大模型的应用更加深入和广泛：比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等，都可以在超长文本技术的加持下，成为我们工作和生活的一部分。

相比当前市面上以英文为基础训练的大模型服务，Kimi Chat 具备较强的多语言能力。例如，Kimi Chat在中文上具备显著优势，实际使用效果能够支持约 20 万汉字的上下文，2.5 倍于 Anthropic 公司的 Claude-100k（实测约8万字），8 倍于 OpenAI 公司的 GPT-4-32k（实测约2.5万字）。

同时，Kimi Chat 通过创新的网络结构和工程优化，在千亿参数下实现了无损的长程注意力机制，不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。

目前，Kimi Chat 已开放内测。

访问 https://www.moonshot.cn 或扫描下方二维码，即可加入内测计划。

大模型输入长度受限带来的应用困境

在我们看来，当前大模型输入长度普遍较低的现状对其技术落地产生了极大制约。例如：

目前大火的虚拟角色场景中，由于长文本能力不足，虚拟角色会轻易忘记重要信息，例如在 Character AI 的社区中用户经常抱怨“因为角色在多轮对话后忘记了自己的身份，所以不得不重新开启新的对话”。
对于大模型开发者来说，输入 prompt 长度的限制约束了大模型应用的场景和能力的发挥，比如基于大模型开发剧本杀类游戏时，往往需要将数万字甚至超过十万字的剧情设定以及游戏规则作为 prompt 加入应用，如果模型输入长度不够，则只能削减规则和设定，从而无法达到预期游戏效果。
在另一个大模型应用的主要方向——Agent 中，由于 Agent 运行需要自动进行多轮规划和决策，且每次行动都需要参考历史记忆信息才能完成，这会带来了模型输入的快速增加，同时也意味着不能处理更长上下文的模型将因为无法全面准确的基于历史信息进行新的规划和决策从而降低 Agent 运行成功的概率。
在使用大模型作为工作助理完成任务的过程中，几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户，由于常常需要分析处理较长的文本内容，使用大模型时受挫的情况发生频率极高。

而上述所有的问题在大模型拥有足够长的上下文输入后都将会迎刃而解。

长文本打开大模型应用的新世界

那么拥有超长上下文输入后的大模型会有怎样的表现？下面一起来看一些 Kimi Chat 实际使用的例子：

公众号的长文直接交给 Kimi Chat ，让它帮你快速总结分析：

新鲜出炉的英伟达财报，交给 Kimi Chat，快速完成关键信息分析：

出差发票太多？全部拖进 Kimi Chat，快速整理成需要的信息：

发现了新的算法论文时，Kimi Chat 能够直接帮你根据论文复现代码：

只需要一个网址，就可以在 Kimi Chat 中和自己喜欢的原神角色聊天：

输入整本《月亮与六便士》，让 Kimi Chat 和你一起阅读，帮助你更好的理解和运用书本中的知识：

通过上述例子，我们可以看到，当模型可以处理的上下文变得更长后，大模型的能力能够覆盖到更多使用场景，真正在人们的工作、生活、学习中发挥作用，而且由于可以直接基于全文理解进行问答和信息处理，大模型生成的“幻觉”问题也可以得到很大程度的解决。

不走捷径，解决算法和工程的双重挑战

其实长文本技术的开发，存在一些对效果损害很大的“捷径”，主要包含以下几个方面：

“金鱼”模型，特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文，只保留对最新输入的注意力机制。模型无法对全文进行完整理解，无法处理跨文档的比较和长文本的综合理解（例如，无法从一篇 10 万字的用户访谈录音转写中提取最有价值的 10 个观点）。
“蜜蜂”模型，特点是只关注局部，忽略整体。通过对上下文的降采样或者RAG（检索增强的生成），只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解（例如，无法从50个简历中对候选人的画像进行归纳和总结）。
“蝌蚪”模型，特点是模型能力尚未发育完整。通过减少参数量（例如减少到百亿参数）来提升上下文长度，这种方法会降低模型本身的能力，虽然能支持更长上下文，但是大量任务无法胜任。

我们相信，走这些捷径无法达到理想的产品化效果。为了真正做出可用、好用的产品，就应该直面挑战。

具体来看。训练层面，想训练得到一个支持足够长上下文能力的模型，不可避免地要面对如下困难：

如何让模型能在几十万的上下文窗口中，准确的 Attend 到所需要的内容，不降低其原有的基础能力？已有的类似滑动窗口和长度外推等技术对模型性能的损害比较大，在很多场景下无法实现真正的上下文。
在千亿参数级别训练长上下文模型，带来了更高的算力需求和极严重的显存压力，传统的 3D 并行方案已经难以无法满足训练需求。
缺乏充足的高质量长序列数据，如何提供更多的有效数据给模型训练？

推理层面，在获得了支持超长上下文的模型后，如何让模型能服务众多用户，同样要面临艰巨挑战：

Transformer 模型中自注意力机制（Self Attention）的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加32倍时，计算量实际会增长1000倍，这意味着如果只是用朴素的方式实现，用户需要等待极其长的时间才能获得反馈。
超长上下文导致显存需求进一步增长：以 1750 亿参数的 GPT-3为例，目前最高单机配置( 80 GiB * 8 )最多只能支持 64k 上下文长度的推理，超长文本对显存的要求可见一斑。
极大的显存带宽压力：英伟达A800 或 H800的显存带宽高达 2-3 TiB/s，但面对如此长的上下文，朴素方法的生成速度只能达到 2~5 tokens/s，使用的体验极其卡顿。

在过去半年多的时间里，Moonshot AI 的技术团队进行了极致的算法和工程优化，克服上述重重困难，终于完成了大内存模型的产品化，带来了首个支持20万字输入的千亿参数LLM产品。

“登月计划”第一步：欢迎来到 Long LLM 时代

Moonshot AI创始人杨植麟此前在接受采访时曾表示，无论是文字、语音还是视频，对海量数据的无损压缩可以实现高程度的智能。

无损压缩的进展曾极度依赖「参数为王」模式，该模式下压缩比直接与参数量相关，这极大增加了模型的训练成本和应用门槛，而 Moonshot AI 认为：

大模型的能力上限（即无损压缩比）是由单步能力和执行的步骤数共同决定的。单步能力与参数量正相关，而执行步骤数即上下文长度。

我们相信，更长的上下文长度可以为大模型应用带来全新的篇章，促使大模型从 LLM时代进入Long LLM (LLLM)时代：

每个人都可以拥有一个具备终身记忆的虚拟伴侣，它可以在生命的长河中记住与你交互的所有细节，建立长期的情感连接。
每个人都可以拥有一个在工作环境与你共生（co-inhabit）的助手，它知晓公域（互联网）和私域（企业内部文档）的所有知识，并基于此帮助你完成OKR。
每个人都可以拥有一个无所不知的学习向导，不仅能够准确的给你提供知识，更能够引导你跨越学科间的壁垒，更加自由的探索与创新。

当然，更长的上下文长度只是Moonshot AI在下一代大模型技术上迈出的第一步。我们计划凭借该领域的领先技术，加速大模型技术的创新和应用落地，不断取得更多突破。

听听“登月计划”的伙伴是怎么说的：

Monolith 砺思资本创始合伙人曹曦：

“杨植麟是全球大模型领域里最被认可的华人技术专家，其团队在人工智能技术，特别是大语言模型 LLM 领域拥有深厚的技术积累，并已在国际上获得了广泛认可。眼下，美国硅谷的 OpenAI 和 Anthropic 等公司获得了多方关注，实际上在国内，拥有足够多技术储备的 Moonshot AI 也正成长为全球领先的 AGI 初创公司。多模态大模型是各家 AI 厂商竞争的关键领域，其中长文本输入技术更是其核心技术之一，Moonshot AI 团队最新发布的大模型和 Kimi Chat 在这方面实现了重要突破，并已成功应用于多个实际场景。砺思将继续加码并支持Moonshot AI 团队在 AGI 领域大胆创新和技术突破，引领中国人工智能技术的未来发展。”

真格基金合伙人戴雨森：

“我们认为近期AI应用的爆火只是一场革命的序幕，AI技术要想真正改变世界创造巨大价值，在智能程度上还需要大的突破，这需要具备顶级技术能力的团队，以坚持追寻 Moonshot 的勇气，持续挑战智能提升的边界。杨植麟作为 XLNet 等多项知名科研工作的第一作者，具备非常丰富的科研和实践经验，多年来他一直坚信通过大模型实现对高维数据的压缩是人工智能发展的必经之路，也团结了一支人才密度超高，配合默契，又充满挑战巨头摇滚精神的创业团队。真格基金非常荣幸能够再次从天使轮开始支持杨植麟的新征程。”

点击“阅读原文”或扫码加入内测计划

关于 Moonshot AI

Moonshot AI 创立于 2023 年 3 月，致力于寻求将能源转化为智能的最优解，通过产品与用户共创智能。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发，多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。Moonshot AI 融资超2亿美元。

继续滑动看下一个

久等了，欢迎与 Moonshot AI 共同开启 Loooooooooong LLM 时代

Moonshot AI Moonshot AI

Moonshot AI

向上滑动看下一个

女人不管有钱没钱，都别买这3类外套，不仅臃肿显胖，看着还廉价

三个亿！文儿被爆对D！邓紫棋退赛！阿哲表态，颜王词秀放话决赛！

柚柚爆阿哲聊天记录！刘一手官宣KS首播！徐梦尧发圈晒照！

给阿哲当小三！电母专场被爆！“哲旭”再合体，宝哥喊话阿哲！潘宏停播，举报虐G登热搜！

太BT了！4分钟10万+，陈伯开干科技票！QJY嘲抖音“某主播”！

久等了，欢迎与 Moonshot AI 共同开启 Loooooooooong LLM 时代

大模型输入长度受限带来的应用困境

长文本打开大模型应用的新世界

不走捷径，解决算法和工程的双重挑战

“登月计划”第一步：欢迎来到 Long LLM 时代

听听“登月计划”的伙伴是怎么说的：

久等了，欢迎与 Moonshot AI 共同开启 Loooooooooong LLM 时代

您可能也对以下帖子感兴趣

女人不管有钱没钱，都别买这3类外套，不仅臃肿显胖，看着还廉价

三个亿！文儿被爆对D！邓紫棋退赛！阿哲表态，颜王词秀放话决赛！

柚柚爆阿哲聊天记录！刘一手官宣KS首播！徐梦尧发圈晒照！

给阿哲当小三！电母专场被爆！“哲旭”再合体，宝哥喊话阿哲！潘宏停播，举报虐G登热搜！

太BT了！4分钟10万+，陈伯开干科技票！QJY嘲抖音“某主播”！

生成图片，分享到微信朋友圈

久等了，欢迎与 Moonshot AI 共同开启 Loooooooooong LLM 时代

大模型输入长度受限带来的应用困境

长文本打开大模型应用的新世界

不走捷径，解决算法和工程的双重挑战

“登月计划”第一步：欢迎来到 Long LLM 时代

听听“登月计划”的伙伴是怎么说的：

久等了，欢迎与 Moonshot AI 共同开启 Loooooooooong LLM 时代

您可能也对以下帖子感兴趣